Processus décisionnels de Markov : des récompenses ordinales au multicritère
نویسنده
چکیده
RÉSUMÉ. Le modèle des processus décisionnels de Markov (MDP) offre un cadre général pour la résolution de problèmes de décision séquentielle dans l’incertain. Son exploitation suppose une connaissance précise des valeurs des paramètres (probabilités et récompenses). Dans ce papier, les récompenses sont qualitatives ou ne sont connues que de manière imparfaite. Seul un ordre est supposé connu. Un MDP à récompenses ordinales (OMDP) peut être vu comme un MDP à récompenses numériques vectorielles dans lequel les fonctions de valeur se transforment en distributions de probabilité. Nous listons alors quelques critères d’optimalité provenant d’ordres sur les distributions de probabilité, notamment la dominance probabiliste à points de référence. Les OMDP exploitant cette dominance sont équivalents à des MDP multicritères avec une priorité définie sur les critères. Pour ces derniers, à l’horizon infini un nouvel algorithme de résolution est proposé quand la priorité sur les critères est un préordre complet.
منابع مشابه
Apprentissage par renforcement dans le cadre des processus décisionnels de Markov factorisés observables dans le désordre. Étude expérimentale du Q-Learning parallèle appliqué aux problèmes du labyrinthe et du New York Driving
RÉSUMÉ. Cet article présente les résultats expérimentaux obtenus avec une architecture originale permettant un apprentissage générique dans le cadre de processus décisionnels de Markov factorisés observables dans le désordre (PDMFOD). L’article décrit tout d’abord le cadre formel des PDMFOD puis le fonctionnement de l’algorithme, notamment le principe de parallélisation et l’attribution dynamiq...
متن کاملModélisation intégrée de la dynamique des systèmes d'information décisionnels
Résumé. Les systèmes d’information décisionnels (SID) sont des systèmes d’information (SI) qui ont pour objectif de faciliter la prise de décision à partir d’information résultant de processus complexes de dérivation et de préparation des données de SI sources. Ces processus sont généralement peu modélisés et sont directement implantés avec des logiciels spécifiques au cours des projets décisio...
متن کاملApprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)
dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale diculté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes...
متن کاملUtilisation des processus décisionnels de Markov pour l'aide à la maîtrise d'une maladie animale
متن کامل
Proposition d'un Système Interactif d'Aide à la Décision Spatiale: Télédétection, SIG et Analyse Multicritère
Résumé. La présente étude a, précisément, pour objectif de proposer des concepts permettant la mise en place d’un système interactif d'aide à la décision adapté à la conduite des processus territoriaux relativement aux enjeux des différentes phases du processus de prise de décision à même de soutenir efficacement deux problématiques d’Aménagement du Territoire: 1. La problématique qui consiste ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Revue d'Intelligence Artificielle
دوره 24 شماره
صفحات -
تاریخ انتشار 2010